大数据与智慧城市发展若干思考


来源:海洲笔记

智能化、数字化在如今的时代是我们无法规避的一个话题。城市是关于人的集合,人的集合构成了城市,大数据与城市的发展该如何相协调,二者如何结合才会提升城市高质量的发展。此次讲座关于大数据与城市的发展带来新的思考。

大数据的起源与定义到大数据上半场的结束、再到大数据下半场的开始,层层递进,引向更为深度,更有前瞻性的思考。

首先,有关大数据的概念的提出,在大多数学者看来,“大数据”这一概念最早出现于1998年,美国高性能计算机SGI的熟悉科学家约翰·马西在一个国际会议报告中指出:随着数据量的快速增长,必将出现数据难理解、难获取、难处理和难组织等四大难题,并用“BigData(大数据)”来描述这一挑战,在计算领域引发思考。

并在2007年,数据库领域的先驱人物吉姆·格雷指出大数据将成为人类触摸、理解和逼近现实复杂系统的有效途径。

在科学研究领域,更有第四范式理论的提出:第一范式是实验观测,第二范式是理论推导,第三范式是计算仿真,第四范式便是数据探索,后来同行学者将其总结为“数据密集型科学发现”,开启从科研视角审视大数据

从如此的视角看去,大数据已经是这个时代的大势,在如此的势能下,我们可以认知它,然后利用它,学会用数据的思维方式思考问题,解决问题。

2012年牛津大学教授维克托·迈尔-舍恩伯格在《大数据时代》中指出,数据分析将从“随机采样”、“精确求解”和“强调因果”的传统模式演变成大数据时代的“全体数据”、“近似求解”和“只看重关联不问因果”的新模式。这句话精确的表达大数据的特征,与上文中解释的数据思维不谋而合,对的,大数据的本质特征便是在尽可能全的数据中寻找关联关系。
 

大数据的应用分为三个层次:

第一层:认知现状,描述性分析应用、总结、抽取相关信息和知识,分析发生了什么,并呈现事物的发展历程。

没错,在这一应用层次上,主要的技术体现在于物联网,通过传感器和通讯技术达到认知我们生活的世界,通过pc端和移动端展现数据本身的发展路径,从而让我们认知事物。

第二层:预测未来,预测性分析应用。分析事物之间的关联关系,发展模式等,并据此对事物发展的趋势进行预测。

从第二次应用开始,主要的技术在于云计算、数据挖掘技术以及人工智能技术,第一层应用,提供数据基础,第二层应用,在第一层基础上,解决的事如何利用数据,云计算提高计算的效率,数据挖掘和人工智能算法提供工具,如何从大数据中获取并学习有效、准确的事物发展规律以及事物发展之间的关联关系,从而预测未来事物发展的走势。

第三层:选择策略,指导性分析应用,基于前两个层次,分析不同决策将导致的后果,并对决策进行指导和优化。

在这一层次,主要是基于第一层次的物联网感知、第二层次的云计算和数据挖掘分析等获得有效信息和知识等基础上,通过制定不同的策略,拟获得不同的结果,对不同的策略的分析之下,选择最有策略,使得事物的发展朝着更好更优化的方向发展。

但是在应用中同样存在问题,深度神经网络基础理论不完善,模型不具可解释性、鲁棒性较差等。因此在第三层次应用中,虽然有人机博弈的成功,但在自动驾驶、政府决策、军事指挥、医疗健康等应用价值更高,且与人类生命、财产、发展和安全紧密相关的领域,

要真正获得有效应用,仍然面临一系列待解决的重大基础理论和核心技术挑战。虽然已有很多成功的大数据应用案例,但还远远未达到我们的预期,这也意味着,数据应用仍处于初级阶段。

同时技术上也存在一些问题,大数据的定义以及思维虽然已达成初步的共识,但还是有许多本质问题仍存在争议,
 

例如:

(1)数据驱动与规则驱动的对立统一;

(2)“关联”与“因果”的辩证关系;

(3)“全数据”的时空相对性;

(4)分析模型可解释性与鲁棒性等。

这些问题都是我们如今大数据时代下,拥抱大数据时需要同时思考的问题,如何解决。如今有声音说如今是大数据的时代,下一个时代是智能的时代,在如此的大数据智能时代,我们该如何去突破时代给我们带来的种种问题。
 

在如今的大数据时代,大数据也倒逼信息技术体系进行不断的重构,比如:

(1)计算机体系结构从数据中心的宏观走向存算一体的微观,云计算的飞速发展,分布式并行计算的发展,都是在数据指数级增长的前提下迫使重构的;

(2)云边端融合的新型计算模式,尤其是在工业物联网领域(2B),单纯的依靠云计算是远远不够的,无法达到快速响应、判断和决策的过程,云计算与边缘计算的融合便是在这一背景下产生。

(3)网络通讯向宽带、移动、泛在发展,

(4)软硬件开源开发趋势倒是产业发展生态的重构,各家大厂,纷纷开源自己的软件工具,以期获得技术生态,如阿里开源blink、百度开源人工智能算法等,都是在寻求在如此的势能下站住技术的窗口,也就是工具的制高点。这也便是时代与技术的一次共舞,一次次洗牌,一次次更迭。

大数据的上半场已经结束。在上半场的这场革命中我国在大数据内存计算、协处理芯片、分析方法等方面突破了一些关键技术,特别是打破“信息孤岛”的数据互操作技术和互联网大数据应用技术已处于国际领先水平;

大数据存储、处理方面,研发了一些重要产品,有效地支撑了大数据应用;国内互联网公司推出的大数据平台和服务,处理能力跻身世界前列。

上半场主要聚焦在“2C”领域,通过连接人,在上半场上相关技术市场已经较为饱和,我们可发展的空间余地并不是很大。

那么,大数据的下半场是什么,下半场已经在悄悄的开始了,其主要特征将是“2B”(面向组织机构)。互联网应用将面向各行业,特别是制造业,以优化资源配置、提质增效为目标,构建以工业物联网为基础和工业大数据为要素的工业互联网。

下半场将是我们重点关注的领域,便是大数据技术与行业融合的最佳时期,也是刚刚开始,这里才是创新的土壤,与行业的融合,也是上海市政府提出的人工智能技术在传统行业的落地应用,这是未来,未来一定是在这里,谁能将大数据技术与行业融合的融洽,创造性的解决行业的痛点难点问题,谁便站上了时代的浪潮之上。
 

值得注意的是,有一些值得我们思考的问题:

(1)基于数据驱动的人工智能。数据驱动已经成为如今大数据时代貌似约定俗成的技术手段,人工智能技术要明确行业需求,定准靶心,然后才是如何基于数据驱动开发人工智能技术,没有行业需求的明确,人工智能技术便也就是水中月,雾中花。

(2)通讯技术获得了突破,形成了自己的理论体系,而就目前来讲,人工智能还基于计算机技术,没有形成独立的理论体系,所以人工智能还没有真正的开始。如今企业界纷纷在谈人工智能,追逐潮流,突出概念,我们应该清醒的认识到,到底什么是人工智能技术,如何解释人工智能技术,难道是一个个数据挖掘技术算法么,还是机器学习算法?如何定义。

(3)未来发展的重点应在三个方面,第一是大数据与智能计算;第二是数据共享,数据只有通过共享才能产生价值;第三新的数据形态,未来的数据发展方向在哪里?(空间数据、医疗数据、流数据、工业数据)。
CPDA数据分析师课程